Conclusie

Nog niet geformuleerd.

Hieronder staan in meer detail de modelkarakteristieken waarop de conclusie gebaseerd is.

Modellen

In onderstaande tabel zien we de uitkomsten van het controlemodel. Dit is een model dat we getraind hebben naast het reguliere proces. Het is bedoeld om een indicatie te krijgen van de modelprestaties op de scoringspopulatie. De resultaten op de reguliere testset geven daar geen goede indicatie van, omdat daarin de class prevalence (aandeel target=Ja) veel groter is. Daarom hebben we een controleset samengesteld van onderzoeken die (min of meer) aselect uitgevoerd zijn, onder de namen “HO2018_Aselect NPRZ” en “HO2018_Aselect_Noordoever”. (NB.: deze onderzoeken zitten óók in de reguliere train/testset.) We gebruiken het type model en de modelparameters die als beste uit het reguliere train-testproces komen. Hiermee trainen we een nieuw model op data waar de controleset uitgehaald is en bepalen de accuracy en hitrates van dit model op de controleset. Niet ideaal, maar zo krijgen we toch een indicatie van de te verwachten resultaten in de praktijk.

Hitrates

De hitrates plot toont het cumulatieve aandeel juiste voorspellingen (hits) over de aflopend gesorteerde risicoscores. De voorspellingen zijn nu geverifieerd tegen de controleset. De grafiek fluctueert in het begin, omdat de cumulatieve waarde bij kleine aantallen sterk kan variëren. Per definitie daalt de plot tot het aandeel hits in de gehele populatie (baseline); dat is hier de controleset. De ‘lift’ is het verschil tussen de hitrate en de baseline.

Onderscheidingsvermogen

De ROC curve laat zien hoe goed het controlemodel onderscheid kan maken tussen de klassen (onrechtmatigheid ‘Ja’ dan wel ‘Nee’). Hoe meer de grafiek naar linksboven neigt (oftewel hoe groter het oppervlak onder de curve, de ‘AUC’), hoe beter het model kan onderscheiden.

Nog 2 soorten plots om naar het onderscheidende vermogen te kijken:
- Een density plot laat zien hoe de klassen zijn verdeeld over de risicoscores. Je ziet de relatieve verdeling binnen de klassen (zegt niets over de absolute aantallen in elke klasse.)
- Een histogram met het aandeel correct “Ja” voorspelde targets in “bins” van risicoscores die evenveel onderzoeken bevatten. Het aantal bins is arbitrair, nu ingesteld op: 7

Relatieve belangrijkheid

Hieronder staat een tabel met de relatieve belangrijkheid van features voor elk van de modellen. Klik op de kolomkop om op belangrijkheid te sorteren voor het desbetreffende model.